[Day23 ] 自動化的萃取PDF資料(Base Python)

第 11 屆 iThome 鐵人賽

DAY 17

自我挑戰組

自動化技術在生活與工作上的應用系列第 23 篇

11th鐵人賽

Kyle

2019-09-26 22:44:16

5546 瀏覽

分享至

PDF是一個不能複製的檔案格式
若我們必須得取得內容該怎辦呢? 可以右轉去Google 這問題 (誤XD
其實也可以在格式不拘的形式取得資料
而在Python中有一種套件叫做 pyPDF2
這時有看前面的文章，或對PYTHON 有一定了解就知道
我們又要pip install "套件了"

程式
import PyPDF2
PDFObj = open('test.pdf', 'rb')
PDFReader = PyPDF2.PdfFileReader(PDFObj)
print(pdfReader.numPages)
#可以取得內容頁數
==> 19
PageObj = pdfReader.getPage(0)
#可以取得內容文字(第幾頁)
PageObj.extractText()

我們也可以做進階一點針對取出來的內容包含加密的話
我們做Decrypting動作
#先判斷是否有加密
pdfReader.isEncrypted
==>True
代表訊息有加密我們可以嘗試解密
pdfReader.decrypt('rosebud')

名天分享更多pdf相關的python運用

[Day 22]自動化來控制開啟檔案

[Day24] 自動下載Youtube的影片(base python)

系列文

自動化技術在生活與工作上的應用共 29 篇

RSS系列文訂閱系列文

20 人訂閱

完整目錄

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

尚未有邦友留言

立即登入留言

自動化技術在生活與工作上的應用系列 第 23 篇